hadoop 3.3.5使用docker编译源码

117次阅读
没有评论

共计 5756 个字符,预计需要花费 15 分钟才能阅读完成。

hadoop 3.3.5 使用 docker 编译源码

背景

hadoop 源码编译环境配置比较复杂,就算在本地的开发宿主机上搭建编译环境,会遇到各种各样的坑,时间花费了很多,收益并不高。为此,本文基于 docker 搭建一套能够到处运行的编译环境,缩短开发人员的搭建环境的时间,能够快速上手 hadoop 的编译,调试和开发。跟着我的思路继续吧。

环境

1 这里我的使用的宿主机系统是centos 7.9 x64

2 软件套件是宝塔,关于宝塔的安装参见宝塔的官网,宝塔安装

宝塔安装完毕后,需要基于宝塔安装 docker 套件,如下图是安装好的 docker 套件。

hadoop 3.3.5 使用 docker 编译源码

3 hadoop 版本基于 3.3.5 进行编译

步骤

1 拉取镜像文件

命令 docker pull ubuntu:bionic,执行如下图:

hadoop 3.3.5 使用 docker 编译源码

2 创建和启动 container

命令:

sudo docker run -itd --name hadoop3 ubuntu:bionic
执行如下图:hadoop 3.3.5 使用 docker 编译源码

3 安装依赖

从宝塔界面进入 container 内部,安装相关依赖,如下图:

hadoop 3.3.5 使用 docker 编译源码

在上述终端,依次执行如下命令:

# 禁止 suggests/recommends
echo APT::Install-Recommends "0"\; > /etc/apt/apt.conf.d/10disableextras
echo APT::Install-Suggests "0"\; >>  /etc/apt/apt.conf.d/10disableextras
echo 'export DEBIAN_FRONTEND=noninteractive' >> /etc/profile
echo 'export DEBCONF_TERSE=true'  >> /etc/profile
source /etc/profile

#安装必须的软件包
apt-get -q update \
    && apt-get -q install -y --no-install-recommends \
        apt-utils \
        bats \
        build-essential \
        bzip2 \
        clang \
        cmake \
        curl \
        doxygen \
        fuse \
        g++ \
        gcc \
        git \
        gnupg-agent \
        libbz2-dev \
        libcurl4-openssl-dev \
        libfuse-dev \
        libprotobuf-dev \
        libprotoc-dev \
        libsasl2-dev \
        libsnappy-dev \
        libssl-dev \
        libsnappy-dev \
        libtool \
        libzstd1-dev \
        locales \
        make \
        pinentry-curses \
        pkg-config \
        python3 \
        python3-pip \
        python3-pkg-resources \
        python3-setuptools \
        python3-wheel \
        rsync \
        shellcheck \
        software-properties-common \
        sudo \
        valgrind \
        zlib1g-dev \
    && apt-get clean \
    && rm -rf /var/lib/apt/lists/*

locale-gen zh_CN.UTF-8

echo "export LANG='zh_CN.UTF-8'" >> /etc/profile
echo "export LANGUAGE='zh_CN:zh'" >>  /etc/profile
echo "export LC_ALL='zh_CN.UTF-8'" >> /etc/profile
echo 'export PYTHONIOENCODING=utf-8' >> /etc/profile
source /etc/profile

#设置 build hadoop 的必须环境变量
echo 'export MAVEN_HOME=/opt/maven' >> /etc/profile
echo 'export JAVA_HOME=/opt/java-8-openjdk-amd64' >> /etc/profile
source /etc/profile

#安装 SpotBugs 4.2.2
mkdir -p /opt/spotbugs \
    && curl -L -s -S https://github.com/spotbugs/spotbugs/releases/download/4.2.2/spotbugs-4.2.2.tgz \
      -o /opt/spotbugs.tgz \
    && tar xzf /opt/spotbugs.tgz --strip-components 1 -C /opt/spotbugs \
    && chmod +x /opt/spotbugs/bin/*

#安装 OpenJDK 8
apt-get update \
    && apt-get install -y --no-install-recommends openjdk-8-jdk libbcprov-java \
    && apt-get clean \
    && rm -rf /var/lib/apt/lists/*
ln -s /usr/lib/jvm/java-8-openjdk-amd64 /opt/java-8-openjdk-amd64

#安装 Google Protobuf 3.7.1
mkdir -p /opt/protobuf-src \
    && curl -L -s -S \
      https://github.com/protocolbuffers/protobuf/releases/download/v3.7.1/protobuf-java-3.7.1.tar.gz \
      -o /opt/protobuf.tar.gz \
    && tar xzf /opt/protobuf.tar.gz --strip-components 1 -C /opt/protobuf-src \
    && cd /opt/protobuf-src \
    && ./configure --prefix=/opt/protobuf \
    && make "-j$(nproc)" \
    && make install \
    && cd /root \
    && rm -rf /opt/protobuf-src

echo 'export PROTOBUF_HOME=/opt/protobuf' >> /etc/profile
echo 'export PROTOBUF_HOME=/opt/protobuf' >> /etc/profile
echo 'export PATH="${PATH}:/opt/protobuf/bin"' >> /etc/profile
source /etc/profile

#查看 protobuf 版本
protoc --version
#显示
libprotoc 3.7.1

#安装 maven 3.6.0
apt-get -q update \
    && apt-get -q install -y --no-install-recommends maven \
    && apt-get clean \
    && rm -rf /var/lib/apt/lists/*
ln -s /usr/share/maven /opt/maven 
#修改 /opt/maven/conf/settings.xml,更新为 <localRepository>/opt/mavenrepo</localRepository>
#创建 mavenrepo
mkdir /opt/mavenrepo

#安装 pylint 和 python-dateutil
pip3 install pylint==2.6.0 python-dateutil==2.8.1

#安装 hadolint
curl -L -s -S \
        https://github.com/hadolint/hadolint/releases/download/v1.11.1/hadolint-Linux-x86_64 \
        -o /bin/hadolint \
   && chmod a+rx /bin/hadolint \
   && shasum -a 512 /bin/hadolint | \
        awk '$1!="734e37c1f6619cbbd86b9b249e69c9af8ee1ea87a2b1ff71dccda412e9dac35e63425225a95d71572091a3f0a11e9a04c2fc25d9e91b840530c26af32b9891ca" {exit(1)}'

mkdir -p /opt/isa-l-src \
    && apt-get update \
    && apt-get install -y --no-install-recommends automake yasm \
    && apt-get clean \
    && curl -L -s -S \
      https://github.com/intel/isa-l/archive/v2.29.0.tar.gz \
      -o /opt/isa-l.tar.gz \
    && tar xzf /opt/isa-l.tar.gz --strip-components 1 -C /opt/isa-l-src \
    && cd /opt/isa-l-src \
    && ./autogen.sh \
    && ./configure \
    && make "-j$(nproc)" \
    && make install \
    && cd /root \
    && rm -rf /opt/isa-l-src

#build 避免内存溢出
echo "export MAVEN_OPTS='-Xms256m -Xmx1536m'" >> /etc/profile
echo "export HADOOP_SKIP_YETUS_VERIFICATION=true" >> /etc/profile
source /etc/profile

#hugo 静态网址
curl -L -o hugo.deb https://github.com/gohugoio/hugo/releases/download/v0.58.3/hugo_0.58.3_Linux-64bit.deb \
    && dpkg --install hugo.deb \
    && rm hugo.deb

#创建代码仓库
mkdir github
cd github
#拉取 hadoop 源代码
git clone https://github.com/apache/hadoop.git
cd hadoop
#基于 tag 创建 3.3.5 分支
git checkout -b r3.3.5 rel/release-3.3.5

#添加 welcome 环境信息和环境检查,将 hadoop 工程内的 hadoop_env_checks.sh 复制到 /opt 下
cp /opt/github/hadoop/dev-support/docker/hadoop_env_checks.sh /opt
chmod 755 /opt/hadoop_env_checks.sh
echo '${HOME}/hadoop_env_checks.sh' >> /root/.bashrc

4 编译 hadoop

切换至目录 /opt/github/hadoop

执行如下命令:

mvn clean install -Pdist,native -DskipTests -Dtar -Dhttps.protocols=TLSv1,TLSv1.1,TLSv1.2 -e

编译成功后如下图:

hadoop 3.3.5 使用 docker 编译源码

编译好的二进制包位于 /opt/github/hadoop/hadoop-dist/target 下,如下图:

hadoop 3.3.5 使用 docker 编译源码

5 基于容器制作镜像

切换至宿主机的命令行界面,执行如下命令:

docker commit 1c336d3f1ef2(容器 id) suizhe007/hadoop:v3.3.5.1

等待镜像生成。

6 提交镜像

本文是提交到 docker 官方仓库,需要提前在网页端将仓库创建好,比如这里的账号是 suizhe007,新创建的仓库为 hadoop,提交命令如下:

docker push suizhe007/hadoop:v3.3.5.1

提交成功后,如下图所示:

hadoop 3.3.5 使用 docker 编译源码

在其他的装有 docker 的机器上,使用 docker pull 拉取了,本文的制作的镜像拉取命令:

docker pull suizhe007/hadoop:v3.3.5.1

问题

在构建 hadoop 的过程中,我们遇到了很多的问题。这里罗列比较典型的。

1 nodejs 版本过低的问题

异常信息:

The engine "node" is incompatible with this module. Expected version ">=14.0.0". Got "12.22.1"

异常堆栈,如下图:

hadoop 3.3.5 使用 docker 编译源码

由上述截图得知,hadoop-yarn-applications-catalog-webapp工程,打开 pom.xml 文件,找到插件 id: yarn install

如下图:

hadoop 3.3.5 使用 docker 编译源码

如图,找到变量 nodejs.versionyarnpkg.version的定义的 pom.xml 文件,即 hadoop-project 工程,分别改为

<nodejs.version>v17.9.1</nodejs.version>
<yarnpkg.version>v1.22.22</yarnpkg.version>

再次编译通过。

2 如何找出合适的 nodejs 版本呢?

在 docker 系统内安装 nodejs,切换目录到 hadoop-yarn-applications-catalog-webapp 下,使用 yarn install 直接执行看是否通过。具体安装的命令如下:

# 先安装 nvm, 便于切换多版本 nodejs
cd /opt/github/
git clone https://github.com/nvm-sh/nvm.git
source /opt/github/nvm/nvm.sh

#尝试过多版本,ubuntu18.04 支持的最大的版本为 17.9.1,对应的 yarn 版本为 1.22.22,符合 hadoop 兼容的 nodejs 版本
#尝试确定的版本
nvm install v17.9.1
npm install yarn -g

后记

通过本文,为你打开了思路,如何构建一个 build hadoop 的编译环境,主要参考 hadoop 自带的 Dockerfile 文件,基于该文件,稍加做些修改,一次性制作好一个镜像,大大提升了调试,开发,编译 hadoop 效率。

 

正文完
 0
醉酒的行者
版权声明:本站原创文章,由 醉酒的行者 于2024-08-06发表,共计5756字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)